安全可靠的自治解决方案是下一代智能运输系统的关键组成部分。这种系统中的自动驾驶汽车必须实时考虑复杂而动态的驾驶场景,并预测附近驾驶员的行为。人类驾驶行为非常细微,对个别交通参与者具有特殊性。例如,在合并车辆的情况下,驾驶员可能会显示合作或非合作行为。这些行为必须估算并纳入安全有效驾驶的计划过程中。在这项工作中,我们提出了一个框架,用于估计高速公路上驾驶员的合作水平,并计划将动作与驾驶员的潜在行为合并。潜在参数估计问题使用粒子滤波器解决,以近似合作级别的概率分布。包括潜在状态估算的部分可观察到的马尔可夫决策过程(POMDP)在线解决,以提取合并车辆的政策。我们在高保真汽车模拟器中评估我们的方法,以对潜在状态不可知或依赖于$ \ textit {a先验{先验} $假设。
translated by 谷歌翻译
深度强化学习(RL)是解决复杂机器人问题的有前途的方法。但是,尽管RL算法的进步最近取得了进步,但通过反复互动进行学习的过程通常是非常耗时的。此外,RL的成功在很大程度上取决于奖励成型功能适合任务的程度,这也耗时为设计。随着对各种机器人问题培训的代理商继续扩散,重复其对新领域的宝贵学习的能力变得越来越重要。在本文中,我们提出了一种利用最佳运输理论的政策融合后的事后技术,作为合并在不同情况下训练多种代理的知识的强大手段。我们进一步证明,这为学习新任务的神经网络政策提供了改进的权重初始化,需要比重新验证父母政策或从头开始培训新政策的时间和计算资源更少。最终,我们对Deep RL中常用的不同代理商的结果表明,专业知识可以统一为“文艺复兴时期的代理人”,从而可以更快地学习新技能。
translated by 谷歌翻译
我们概括了模型预测路径积分控制(MPPI)的推导,以允许对照序列中的对照组进行单个关节分布。这种改革允许实施自适应重要性采样(AIS)算法,以在最初的重要性采样步骤中实施,同时仍保持MPPI的好处,例如使用任意系统动态和成本功能。在模拟环境中证明了通过在每个控制步骤中集成AIS来优化建议分布的好处,包括控制轨道周围的多辆车。新算法比MPPI更有效地样品,可以通过更少的样品实现更好的性能。随着动作空间的维度的增加,这种性能差异会增长。模拟的结果表明,新算法可以用作任何时间算法,从而增加了每次迭代的控制值与依赖大量样品的算法。
translated by 谷歌翻译
我们提出了一种新颖的方法来最大限度地提高对在大型地理区域(ROI)的大规模地理区域运营的机器人的通信感知覆盖范围。我们的方法在邻域选择和控制中补充了潜在的网络拓扑,使其在动态环境中具有高度强大。我们将覆盖范围制定为多级,合作图形游戏,采用变分推理(VI)以达到平衡。我们通过无人驾驶航空公司(UV)和用户设备(UE)机器人在实验中实验验证我们在移动临时无线网络场景中的方法。我们表明它可以在现实的网络条件下通过静止和移动用户设备(UE)机器人定义的ROI。
translated by 谷歌翻译
预测环境的未来占用状态对于实现自动驾驶汽车的明智决定很重要。占用预测中的常见挑战包括消失的动态对象和模糊的预测,尤其是对于长期预测范围。在这项工作中,我们提出了一个双独沟的神经网络体系结构,以预测占用状态的时空演化。一个插脚致力于预测移动的自我车辆将如何观察到静态环境。另一个插脚预测环境中的动态对象将如何移动。在现实Waymo开放数据集上进行的实验表明,两个插脚的融合输出能够保留动态对象并减少预测中比基线模型更长的预测时间范围。
translated by 谷歌翻译